max rank | avg. rank | sentence |
---|---|---|
137 | 69.3636 | Það sé hins vegar ekki hægt ef vel á að verða. |
154 | 67.6000 | Þetta er í fyrsta sinn sem þær koma til Íslands. |
161 | 60.9091 | En það verður bara tekið á því þegar það kemur upp. |
167 | 69.7143 | Þetta hefur verið gert hér á Íslandi. |
167 | 44.2222 | Það er ekkert eins og það var á Íslandi. |
188 | 68.3000 | En nú sé ég að þetta var rétt hjá mér. |
194 | 79.5556 | Ekki það sama sem fer út og kemur inn. |
198 | 68.0000 | Ég fór því frá henni,“ segir hann. |
216 | 63.6250 | Hann sagði þetta og hefur sagt það áður. |
230 | 106.8750 | Í dag segist hún aldrei hafa sagt það. |
231 | 101.6667 | Ég sé hana ekki aftur fyrr en í október. |
237 | 66.5000 | Það er vegna þess að þeir taka bara á móti. |
242 | 87.1111 | En það hafa þau fengið að gera síðustu ár. |
257 | 98.0000 | Það hafi bæði verið gert árið 2006 og 2008. |
272 | 117.3333 | Þeir vilja bara hafa þetta eins og þeir vilja. |
280 | 79.8571 | En svo virðist að annað eigi að vera eins og það hefur verið áður. |
286 | 95.2857 | Þetta kemur fram í tilkynningu frá henni. |
288 | 100.8889 | Hann eigi eftir að gera eitthvað meira af sér. |
288 | 137.2500 | Ef maður hefði ekki verið það hefði maður bara farið eitthvað annað. |
288 | 68.4000 | Það var eitthvað ekki eins og það átti að vera. |
319 | 119.1429 | Eftir því virðist ekki hafa verið farið. |
321 | 95.8750 | Þetta kom fram á Alþingi rétt í þessu. |
325 | 98.1538 | Það virðist ekki heldur vera fyrir alla að láta taka fram úr sér. |
328 | 123.4545 | Það er 2% fleiri en í janúar og febrúar í fyrra. |
340 | 140.8750 | Ekki væri hægt að ganga út frá öðru. |
347 | 96.6667 | Þetta á þó eftir að koma betur í ljós. |
351 | 80.7000 | En svona er þetta og ekkert við þessu að gera. |
351 | 115.2222 | Það er ekki gott að vinna með þetta svona. |
352 | 78.1111 | Þetta eru upplýsingar sem ekki hafa komið fram áður. |
356 | 108.6667 | Það er þó ekki fyrr en í lok apríl. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II